本文内容来源于《测绘通报》2022年第10期,审图号:GS京(2022)0980号
明璐璐1, 高品红2, 刘宇航3, 王鹏4, 涂梨平5, 柯福阳1,6
1. 南京信息工程大学遥感与测绘工程学院, 江苏 南京 210440;
2. 浙江华东建设工程有限公司, 浙江 杭州 310014;
3. 西宁市测绘院, 青海 西宁 810001;
4. 西宁市国土勘测规划研究院, 青海 西宁 810000;
5. 江西核工业测绘院集团有限公司, 江西 南昌 330038;
6. 南京信息工程 大学无锡研究院, 江苏 无锡 214000
基金项目:江西省重点研发计划(20201BBG71001);无锡市科技发展资金项目(N20201011)
关键词:滑坡位移, 北斗监测, 预测, 梯度增强多元回归模型
引文格式:明璐璐, 高品红, 刘宇航, 等. 北斗监测滑坡及其梯度增强多元回归位移预测[J]. 测绘通报, 2022(10): 7-12. DOI: 10.13474/j.cnki.11-2246.2022.0287.摘要 :山体滑坡位移量预测精度主要受预测模型和参量的影响,而基于回归模型和灰度预测模型的传统滑坡预测模型主要存在模型预测结构单调、引入的预测影响参量不全面、长期性预测精度低等问题,因此,本文基于北斗数据提出了一种基于梯度增强多元回归算法的滑坡预测方法。梯度增强多元回归模型在考虑多重因素的前提下,使用如降水量、土壤湿度、地形参数等滑坡主影响因子作为回归模型参量,同时结合梯度增强方法,可以增强预测模型的有效结构,提升数据的使用率,进而提高长、短期的滑坡位移量预测精度。最后以西宁市南山寺滑坡带为例,考虑降水、地面沉降、地形地貌等诱发滑坡的关键因素,分别基于梯度增强多元回归模型、贝叶斯岭回归模型、弹性网络回归模型及支持向量机回归模型进行试验。结果表明,梯度增强多元回归模型的方差(EV)结果为0.99mm2,均方差(MSE)结果为0.04mm,平均绝对误差(MAE)结果为0.15mm,且利用梯度增强多元回归模型对2020年12月的表面位移量进行预测,发现相对误差区间为(-0.8%,0.8%],预测精度最高。因此,相对而言,梯度增强多元回归预测模型精度更优、效率更高,更能准确反映滑坡表面位移量的变化状态,精确地对滑坡体进行全天候监控、预警,保障滑坡体周边环境的安全。
滑坡是在一定外力或内力作用下引起的山体形变,常常会受一些诱发因素(降水、地面沉降、地质运动等)的影响,导致山体发生滑动。据国家相关部门统计,2020年我国共发生7840起地质灾害,其中4810起为滑坡灾害,可见我国滑坡灾害发生频繁。因此,为有效预防滑坡的发生,降低灾害损失,实现滑坡位移量准确预测是十分重要的。长期以来,滑坡变形预测一直是地质学者们的研究重点,目前最为常见的预测方法有模型预测、遥感图像预测、点云数据预测等。由于模型预测更能大幅度提高滑坡位移量的预测精度,因此基于模型预测滑坡是专家关注的热点。自1960年以来,各专家学者们相继提出各种预测滑坡的模型。常用的模型有回归模型[1]、机器学习模型[2]等。文献[3]利用特征聚合决策树、决策树、朴素贝叶斯和逻辑回归预测模型预测降雨型滑坡灾害。文献[4]基于弹性网络模型对大坝变形进行预测,解决在利用极限学习机时会出现的过拟合现象。文献[5—6]改进支持向量机模型对滑坡位移项进行训练和预测,这类方法提高了滑坡位移预测的精度。文献[7]采用梯度提升决策树(GBDT)等机器学习方法对中国三峡库区滑坡易发性进行了研究,结果表明GBDT模型特异性跟精确度最高分别为99.4%和93%。文献[8]基于优化的梯度提升决策树模型(GBDT)探究降雨诱发的滑坡敏感性制图,研究表明,提出的模型有较高的精度。综上,虽然滑坡预测模型研究已取得了一定进展,但仍存在模型预测结构单调[3]、引入的预测影响参量不全面、长期性预测精度低等问题[7]。梯度增强回归模型[9]作为一种重要的机器学习模型更多用于金融[10]和医学[11]等领域,而在预测滑坡领域主要应用于滑坡易发生性评价,但在时空变化领域应用于预测滑坡位移的较少,特别是在利用多因子预测滑坡位移方面的研究较少[12]。因此,为了进一步研究降水、地表位移沉降、深部位移[13]、裂缝相互之间的关联性,本文对贝叶斯岭回归模型、弹性网络回归模型、支持向量机回归模型及梯度增强多元回归模型进行训练,同时优化模型参数,增强预测模型有效结构,提升数据的使用率,并利用训练后的模型预测滑坡位移量,最后对比各模型预测结果精度。贝叶斯岭回归模型(Bayesian ridge,BR)是利用概率模型估算预估阶段的参数正则化。弹性网络回归模型(elastic net,EN)是一种基于两种正则化模型(包括Lasso回归和岭回归)的线性回归模型,其在保留岭回归稳定性的基础上,又能类似Lasso回归去除冗余变量。支持向量机回归模型(support vector regression,SVR)由文献[14]提出用于解决非线性回归问题的算法。其原理是把样本数据分为训练集和测试集两部分,将训练集作为输入更高维度的空间进行训练,再根据测试集的预测结果进行分析[15]。梯度增强多元回归模型(gradient boosting regression,GBR)是集成学习(ensemble learning)[16]提升(Boosting)中的一种重要算法。一般而言,集成学习利用重采样得到所需的样本数据,从而训练多个弱学习器,当少数学习器不能满足任务需求而无法达到期望效果时,可使用多数学习器达到预定目标。GBR基本原理是在样本数据降水量(amount of precipitation,AOP)、沉降量(settlement,S)、深部位移量(depth displacement,DD)及裂缝(rupture,R)的基础上建立训练样本集,从而获得初始化弱学习模型,再通过损失函数计算负梯度,将计算结果作为评定上一轮弱学习器表面位移量(基于x、y两个方向的总位移)(surface displacement,SD)偏差的衡量指标。为了更正上述偏差,在下一轮学习中利用拟合负梯度,在弱学习模型上不断迭代产生新的预测模型,最终得到一个强学习器预测表面位移量的模型。设yi为样本数据的表面位移量,m为样本个数,其中样本数据主要包括降水量、沉降量、深部位移量及裂缝的选取,c为拟合叶子节点最佳输出值,输入训练集样本T={(x1,y1),(x2,y2),…,(xm,ym)},则初始化弱学习模型为式中,L(yi,c)为损失函数,用于判断每轮迭代产生的位移量损失近似值。对迭代轮数t=1,2,…,T,计算第t轮的第i个样本的负梯度rti,则计算公式为式中,F0(x)为弱学习器,利用负梯度拟合,建立位移量预测的重点区域Rtj,则最佳位移量拟合值为式中,j(j=1,2,…,J)为叶子节点个数,更新第t轮学习器为图 1为梯度增强多元回归模型预测流程,在确定最佳拟合值前,需对梯度增强多元回归模型进行参数设置(见表 1)。图 1 预测原理流程
表 1 模型参数设置
首先对监测数据进行数据预处理,包括:①数据过滤;②数据集成;③数据规约;④数据变换过程。然后对贝叶斯岭回归模型、弹性网络回归模型、支持向量机回归模型及梯度增强多元回归模型进行训练,同时优化模型参数,增强预测模型的有效结构,提升数据的使用率,并利用训练后的模型预测滑坡位移量。最后通过对比4种模型预测结果的精度,获取最佳模型以提高滑坡位移预测的准确性,具体流程如图 2所示。西宁市地处我国西北部,近年来滑坡灾害频繁发生,经研究发现其滑坡存在规律性,在一定程度上受地形地貌与地层岩性的影响。本文主要研究西宁南部南山寺附近滑坡带(如图 3所示),此类滑坡为崩坡积松散层滑坡[17]。数据来源于西宁市地质灾害监测预警信息平台上西宁南山的北斗监测数据及其附近的岩土监测数据和气象监测数据,主要包括表面位移量、降水量、沉降量、深部位移量及裂缝。其GNSS监测点主要选取南山附近点JC-01、JC-02、JC-04、JC-06和JC-07,因为相较于其他GNSS监测点,这5个监测点持续监测时间长、数据完整度高。其中JC-02、JC-04监测点及JC-07监测时间均从2018年7月开始监测,而JC-06监测时间从2018年11月开始监测。王家庄附近选取DB-02、DB-03和DB-05GNSS监测点,由于这3个监测点在2020年8月刚建成,因此监测时间较短,但可用于监测模型预测精度的分析。GAMIT/GLOBK软件作为GNSS数据解算领域较稳定的软件。本文所用表面位移量数据是基于该软件由GNSS监测点数据进行解算得到,采用双差模型,解算精度达到毫米级。根据皮尔逊相关系数分析,降水量、沉降量、深部位移量及裂缝是影响滑坡表面位移量变化的几大重要因素。即考虑不同变量的影响,不断改变影响因子个数作为自变量,表面位移量作为因变量,对表面位移量进行预测。利用本文所述4种模型进行预测,结果如图 4所示。以JC-01为样本点,通过改变自变量个数进行表面位移预测。由图 4可知,贝叶斯岭回归模型和弹性网络回归模型在改变因子个数的情况下,预测结果与真实值均相差较多,拟合效果较差,其误差最高达数十毫米,准确性低,其精度并不能满足滑坡预测的需要。而支持向量机回归模型虽然在单因子预测情况下精度也较差,但随着自变量的增加,在局部时间段内预测精度有所提高。最后可以清晰地看出,随着自变量的增加,梯度增强多元回归模型预测结果拟合曲线与表面位移量真实值曲线重合性较高,当自变量因子达到4时,预测精度不超过5 mm,预测精度明显高于其他3种模型。预测精度如图 5所示,首先,通过计算不同影响因子个数的上述4种模型的方差(EV)、平均绝对误差(MAE)和均方差(MSE)可知,随着影响因子个数的增加,贝叶斯岭回归模型和弹性网络回归模型方差、平均绝对误差及均方差变化不大,因此模型拟合效果较差;而支持向量机回归模型和梯度增强多元回归模型方差整体上呈现上升趋势,平均绝对误差和均方差呈下降趋势。当影响因子达到4时,梯度增强多元回归模型的方差值达到最大(0.99 mm2),比贝叶斯岭回归模型和弹性网络回归模型的方差提高近70%,比支持向量机回归模型提高近31%。然后,梯度增强多元回归模型的均方差达到最低(0.04 mm),比贝叶斯岭回归模型和弹性网络回归模型的均方差降低近12 mm,比支持向量机回归模型的均方差降低近5 mm。最后,梯度增强多元回归模型的平均绝对误差也达到最低(0.15 mm),比贝叶斯岭回归模型和弹性网络回归模型的平均绝对误差降低近3 mm,比支持向量机回归模型的平均绝对误差降低近1.5 mm。由此对比4种模型的精度结果,梯度增强多元回归模型预测精度最高,可以较准确地对滑坡位移进行预测。表 2为在相同环境下,使用同一数据集多次运行4种模型计算的运行时间平均值,可以看出梯度增强多元回归模型所需时间更短。因此,对比上述结果进一步说明梯度增强多元回归模型可在最短的时间内获得最精确的结果,其实时性和效率更好。表 2 模型效率比
依次对比南山附近GNSS监测点JC-01、JC-02、JC-04、JC-06、JC-07和王家庄附近GNSS监测点DB-02、DB-03、DB-05的总位移量,经计算可得JC-02、JC-06、DB-03和DB-05监测点总位移量较大,均超过30 mm。首先将JC-02和JC-06的样本数据分为训练集与测试集,其中训练集考虑多个参数的影响,主要以影响滑坡位移最大的4个因素,即降雨量、沉降量、深部位移量及裂缝;然后对梯度增强多元回归模型进行训练,同时优化模型参数;最后利用训练所得的预测函数模型对GNSS监测点表面位移量进行预测。预测结果如图 6—图 7所示,可以看出,模型拟合结果在真实值上下略微波动,基本保持一致,能够较准确地预测表面位移量。此外,由图 6—图 7还可以得出,西宁南山滑坡一直处于加速变形阶段。由于汛期降雨量的影响,降雨对滑坡表面位移量的影响还呈现一定的周期性,对比两监测点可知每年7—9月的降雨,均导致了滑坡表面位移量明显增加约10~20 mm。每年9月滑坡表面位移量会达到最高峰,随着降雨量的减少,表面位移量变化会逐渐减缓,变化量约为-5~5 mm;并在下一年的9月再次达到最高峰,以此反复,位移量不断增大。每年的夏季,由于受降雨量增大的影响,滑坡表面位移量不断增大至70 mm(如图 8所示),同时雨水对泥岩块体造成崩解、软化,造成裂缝不断增大,再加上重力的影响,导致泥岩块体出现局部滑动。夏季在强降雨的影响下,裂缝不断增大至0.6 mm(如图 9所示);而冬季,降水量不断减少,裂缝进入减速变形阶段并不断缩小至约-0.4~-0.2 mm;从而滑坡及下部岩层在应力重分布状况下,逐渐开始建立新的平衡。裂缝作为影响滑坡表面位移量的一大重要因素,其变化也呈周期性波动,并具有一定的滞后性,强降雨后的1~2个月是裂缝发生变化的主要周期月。对比王家庄GNSS监测点DB-03和DB-05(如图 10—图 11所示),强降雨影响下的滑坡表面位移量也呈现一定的滞后性。随着8月10日的强降雨开始,从8月底开始,滑坡位移量变化约为20 mm,并随着降雨的结束仍在不断缓慢上升,变化量逐渐减少,约为5 mm。综上,图 6—图 11表明梯度增强多元回归模型预测结果与真实监测数据具有很好的一致性。通过对滑坡表面位移和降水量的分析可知,滑坡表面位移主要是受降水及降水后一系列的地质条件演化的影响。同时根据预测结果可以清晰地看出,多元预测精度高,且利用梯度增强多元回归模型获得的滑坡位移曲线,其预测拟合效果与真实值基本一致。基于GNSS监测点JC-02 2020年12月的测试集数据,分析上述4种模型预测的监测点表面位移量相对误差状况,结果见表 3(部分)。由表 3数据可以看出,贝叶斯岭回归模型和弹性网络回归模型预测结果相对误差取值区间为(-12.5%,-5%),说明预测值比真实值小,且预测结果精度不高;而支持向量机回归模型通过训练后,相对误差取值区间为(-1.9%,0.8%),相较于上述两种预测精度明显提高;梯度增强多元回归模型相对误差区间为(-0.8%,0.8%],表明对于具有非线性关系的滑坡表面位移的预测较为准确,且精度较高。(1) 本文将滑坡多因子影响与梯度增强回归模型相结合,利用梯度多元回归模型对滑坡位移-时间曲线进行预测,解决了传统方法中对于多因子影响因素考虑不全面的问题。相关分析处理后的数据,使得表面位移量与影响因子紧密联系起来。(2) 构建的梯度增强多元回归模型能很好地预测滑坡表面位移量,其方差结果为0.99 mm2,均方差结果为0.04 mm,平均绝对误差结果为0.15 mm,预测精度较高,效率较高。对预测后的位移量分析可知,受强降雨的影响,西宁南山寺滑坡带处于加速变形阶段,且具有周期性与滞后性。(3) 进一步对比表面位移量真实值和预测值的变化,分析GNSS监测点JC-02 2020年12月的测试集数据,发现基于梯度增强多元回归模型的预测值和表面位移量真实值基本一致,上下波动不大,相对误差区间为(-0.8%,0.8%],预测精度较高,对于滑坡表面位移量预测的实际应用具有重要意义。
作者简介:明璐璐(1998-),女,硕士生,主要研究方向为空天地滑坡监测与降水之间的关系。E-mail:476458012@qq.com